智能论文笔记

Power Efficient Video Super-Resolution on Mobile NPUs with Deep Learning, Mobile AI & AIM 2022 challenge: Report

Andrey Ignatov , Radu Timofte , Cheng-Ming Chiang , Hsien-Kai Kuo , Yu-Syuan Xu , Man-Yu Lee , Allen Lu , Chia-Ming Cheng , Chih-Cheng Chen , Jia-Ying Yong

分类：计算机视觉

2022-11-07

Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.

translated by 谷歌翻译

Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation

Jiaming Zhang , Kailun Yang , Hao Shi , Simon Reiß , Kunyu Peng , Chaoxiang Ma , Haodong Fu , Kaiwei Wang , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-07-25

在本文中，我们介绍了全景语义细分，该分段以整体方式提供了对周围环境的全景和密集的像素的理解。由于两个关键的挑战，全景分割尚未探索：（1）全景上的图像扭曲和对象变形；（2）缺乏培训全景分段的注释。为了解决这些问题，我们提出了一个用于全景语义细分（Trans4Pass）体系结构的变压器。首先，为了增强失真意识，Trans4Pass配备了可变形的贴片嵌入（DPE）和可变形的MLP（DMLP）模块，能够在适应之前（适应之前或之后）和任何地方（浅层或深度级别的（浅层或深度））和图像变形（通过任何涉及（浅层或深层））和图像变形（通过任何地方）和图像变形设计。我们进一步介绍了升级后的Trans4Pass+模型，其中包含具有平行令牌混合的DMLPV2，以提高建模歧视性线索的灵活性和概括性。其次，我们提出了一种无监督域适应性的相互典型适应（MPA）策略。第三，除了针孔到型 - 帕诺amic（PIN2PAN）适应外，我们还创建了一个新的数据集（Synpass），其中具有9,080个全景图像，以探索360 {\ deg} Imagery中的合成对真实（Syn2real）适应方案。进行了广泛的实验，这些实验涵盖室内和室外场景，并且使用PIN2PAN和SYN2REAL方案进行了研究。 Trans4Pass+在四个域自适应的全景语义分割基准上实现最先进的性能。代码可从https://github.com/jamycheung/trans4pass获得。

translated by 谷歌翻译

DPCN++: Differentiable Phase Correlation Network for Versatile Pose Registration

Zexi Chen , Yiyi Liao , Haozhe Du , Haodong Zhang , Xuecheng Xu , Haojian Lu , Rong Xiong , Yue Wang

分类：计算机视觉 | 机器人

2022-06-12

姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务，最高为7DOF，用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望，但它们要么依赖于启发式定义的对应关系，要么易于局部最小值。我们提出了一个可区分的相关（DPC）求解器，该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时，我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言，特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式，将翻译转换和从旋转中脱钩。接下来，使用DPC求解器在频谱中独立有效地估计旋转，比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上，以不同的输入方式，包括2D Bird的视图图像，3D对象和场景测量以及医疗图像。实验结果表明，DCPN ++的表现优于经典和基于学习的基础线，尤其是在部分观察到的异质测量方面。

translated by 谷歌翻译

Object Scan Context: Object-centric Spatial Descriptor for Place Recognition within 3D Point Cloud Map

Haodong Yuan , Yudong Zhang , Shengyin Fan , Xue Li , Jian Wang

分类：计算机视觉

2022-06-07

位置识别技术赋予了一种大满贯算法，具有消除累积错误并自身重新定位的能力。基于点云的位置识别的现有方法通常利用以激光雷达为中心的全局描述符的匹配。这些方法具有以下两个主要缺陷：当两个点云之间的距离很远时，不能执行位置识别，并且只能计算旋转角度，而无需在x和y方向上偏移。为了解决这两个问题，我们提出了一个新颖的全球描述符，该描述符围绕主要对象构建，以这种方式，描述符不再依赖于观察位置。我们分析了该方法可以完美地解决上述两个问题的理论，并在Kitti和一些极端情况下进行了许多实验，这表明我们的方法比传统方法具有明显的优势。

translated by 谷歌翻译

Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to 100 Trillion Parameters

Xiangru Lian , Binhang Yuan , Xuefeng Zhu , Yulong Wang , Yongjun He , Honghuan Wu , Lei Sun , Haodong Lyu , Chengjun Liu , Xing Dong

分类：机器学习

2021-11-10

基于深度学习的模型占主导地位的生产推荐系统的当前景观。此外，近年来目睹了模型规模的指数增长 - 从谷歌的2016年模型，最新的Facebook的型号有10亿个参数，具有12万亿参数。型号容量的每次跳跃都有显着的质量增强，这使我们相信100万亿参数的时代即将来临。然而，即使在工业规模数据中心内，这些模型的培训也在挑战。这种困难是从训练计算的惊人的异质性继承 - 模型的嵌入层可以包括总模型尺寸的99.99％，这是极其内存密集的;虽然其余的神经网络越来越多地计算密集型。为支持培训此类巨大模式，迫切需要有效的分布式培训系统。在本文中，我们通过仔细共同设计优化算法和分布式系统架构来解决这一挑战。具体而言，为了确保培训效率和训练精度，我们设计一种新型混合训练算法，其中嵌入层和密集的神经网络由不同的同步机制处理;然后，我们构建一个名为Persia的系统（短暂的并行推荐培训系统，其中包含混合加速），以支持这种混合培训算法。理论上的示范和实证研究均达到100万亿参数，以证明了波斯的系统设计和实施。我们将Pensia公开使用（在https://github.com/persiamml/persia），以便任何人都能够以100万亿参数的规模轻松培训推荐模型。

translated by 谷歌翻译

Kinematic Motion Retargeting via Neural Latent Optimization for Learning Sign Language

Haodong Zhang , Weijie Li , Jiangpin Liu , Zexi Chen , Yuxiang Cui , Yue Wang , Rong Xiong

分类：机器人

2021-03-16

从人类演示到机器人的动作重返是一种有效的方法，可以减少机器人编程的专业需求和工作量，但面临着人与机器人之间的差异导致的挑战。基于传统的优化的方法是耗时的，依赖良好的初始化，而最近使用前馈神经网络的研究遭受了不良的通知来看不见的运动。此外，他们忽略了人类骨骼和机器人结构中的拓扑信息。在本文中，我们提出了一种新的神经潜在优化方法来解决这些问题。潜在优化利用解码器来建立潜在空间和机器人运动空间之间的映射。之后，通过寻找最佳潜伏向量，可以获得满足机器人约束的重个结果。随着潜在优化，神经初始化利用编码器来提供更好初始化以更快，更好地收敛优化。人体骨架和机器人结构都被建模为更好地利用拓扑信息的图表。我们对重新靶向中文手语进行实验，涉及两只手臂和两只手，对关节中相对关系的额外要求。实验包括在模拟环境中的yumi，nao和辣椒和现实世界环境中的yumi重新定位各种人类示范。验证了所提出的方法的效率和准确性。

translated by 谷歌翻译

ReLoc: A Restoration-Assisted Framework for Robust Image Tampering Localization

Peiyu Zhuang , Haodong Li , Rui Yang , Jiwu Huang

分类：计算机视觉

2022-11-08

With the spread of tampered images, locating the tampered regions in digital images has drawn increasing attention. The existing image tampering localization methods, however, suffer from severe performance degradation when the tampered images are subjected to some post-processing, as the tampering traces would be distorted by the post-processing operations. The poor robustness against post-processing has become a bottleneck for the practical applications of image tampering localization techniques. In order to address this issue, this paper proposes a novel restoration-assisted framework for image tampering localization (ReLoc). The ReLoc framework mainly consists of an image restoration module and a tampering localization module. The key idea of ReLoc is to use the restoration module to recover a high-quality counterpart of the distorted tampered image, such that the distorted tampering traces can be re-enhanced, facilitating the tampering localization module to identify the tampered regions. To achieve this, the restoration module is optimized not only with the conventional constraints on image visual quality but also with a forensics-oriented objective function. Furthermore, the restoration module and the localization module are trained alternately, which can stabilize the training process and is beneficial for improving the performance. The proposed framework is evaluated by fighting against JPEG compression, the most commonly used post-processing. Extensive experimental results show that ReLoc can significantly improve the robustness against JPEG compression. The restoration module in a well-trained ReLoc model is transferable. Namely, it is still effective when being directly deployed with another tampering localization module.

translated by 谷歌翻译

Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks

Haodong Duan , Yue Zhao , Kai Chen , Yuanjun Xiong , Dahua Lin

分类：计算机视觉

2022-09-20

深度学习模型已在大规模视频基准测试上取得了出色的识别结果。但是，当应用于稀有场景或物体的视频时，它们的性能很差，这主要是由于现有视频数据集的偏见。我们从两个不同的角度解决了这个问题：算法和数据集。从算法的角度来看，我们提出了空间感知的多种偏见（SMAD），它既将明确的偏见都与多种相对的对抗性训练和隐含的偏见以及与空间行动重新重量的模块相结合，从行动方面。为了消除内在的数据集偏差，我们建议OmnideBias有选择地利用Web数据进行联合培训，这可以通过更少的Web数据实现更高的性能。为了验证有效性，我们建立评估协议并对现有数据集的重新分配分配和新的评估数据集进行广泛的实验，该数据集的重点是稀有场景。我们还表明，当转移到其他数据集和任务时，辩护形式可以更好地概括。

translated by 谷歌翻译

Efficient Planar Pose Estimation via UWB Measurements

Haodong Jiang , Wentao Wang , Yuan Shen , Xinghan Li , Xiaoqiang Ren , Junfeng Wu

分类：机器人

2022-09-14

国家估计是自主系统的重要组成部分。已显示整合超宽带（UWB）技术可以纠正长期估计漂移并绕过环路闭合检测的复杂性。但是，机器人技术中很少有作品采用UWB作为独立的状态估计技术。这项工作的主要目的是仅使用UWB范围测量结果研究平面姿势估计，并研究估计器的统计效率。我们证明了两步方案的出色属性，该方案说，我们可以通过高斯 - 纽顿迭代的一步来完善一致的估计器在渐近上有效。基于此结果，我们设计了GN-uls估计器，并通过模拟和收集的数据集进行评估。GN-uls在我们的静态数据集上达到毫米和次级水平的准确性，并在我们的动态数据集中达到厘米和学位水平的精度，从而提出了仅将UWB用于实时状态估计的可能性。

translated by 谷歌翻译

Reduce Communication Costs and Preserve Privacy: Prompt Tuning Method in Federated Learning

Haodong Zhao , Wei Du , Fangqi Li , Peixuan Li , Gongshen Liu

分类：机器学习 | 人工智能

2022-08-25

联合学习（FL）通过汇总模型更新，以隐私的方式对分散数据进行了全球模型培训。但是，对于使用具有大量参数的预训练的语言模型（PLM）的许多自然语言处理（NLP）任务，与FL相关的沟通成本相当大。最近，迅速调整了一些不修改PLM的软提示的调音，它作为新的学习范式取得了出色的表现。因此，我们要组合两种方法，并探索在FL下迅速调整的效果。在本文中，我们提出“ FedPrompt”作为第一个工作研究促使使用FL以模型分开学习方式进行调整，并证明该研究大大降低了沟通成本，只有PLMS参数的0.01％，而准确性几乎没有降低。在IID和非IID数据分布上。这提高了FL方法的效率，同时还可以在及时调整中保护数据隐私。此外，PLMS，提示在公共平台和个人用户之间被上传和下载，因此我们试图弄清楚是否仍然只有使用后门威胁在FL场景中软提示。我们通过对FedPrompt的数据中毒进一步进行后门攻击。我们的实验表明，正常的后门攻击无法实现高攻击成功率，证明了FedPrompt的稳健性。我们希望这项工作能够促进FL的应用，并提高对可能的安全威胁的认识。

translated by 谷歌翻译